Radeon DNA (문단 편집)

=== RDNA 2 (Navi 2X, gfx1030) ===
 * [[https://www.anandtech.com/show/15597/amd-financial-analyst-day-2020-roundup|AMD Financial Analyst Day 2020 Round-Up: Laying A Path For Bigger & Better Things]]
 * [[https://www.anandtech.com/show/15591/amds-rdna-2-gets-a-codename-navi-2x-comes-this-year-with-50-improved-perfperwatt|AMD's RDNA 2 Gets A Codename: “Navi 2X” Comes This Year With 50% Improved Perf-Per-Watt]]
 * [[https://developer.amd.com/wp-content/resources/RDNA2_Shader_ISA_November2020.pdf|"RDNA 2" Instruction Set Architecture Reference Guide]]

||<table align=center><tablebgcolor=#ed1c24><tablebordercolor=#ed1c24> {{{#!wiki style="margin: -5px -10px"
[youtube(3UiNwq9q-2M)]}}} ||
||<color=white> '''AMD RDNA™ 2 Architecture''' ||

{{{#!folding 【정식 발표 전 정보 펼치기 · 접기】
2020년 3월 5일, AMD 파이낸셜 데이에서 공식 발표된 RDNA의 후속 마이크로아키텍처. 하드웨어 [[레이 트레이싱]]을 지원하며, 전성비가 기존 RDNA 대비 50% 향상될 것이라고 한다.

2020년 8월 17일, HOT CHIPS 32의 [[엑스박스 시리즈 X]] 아키텍처 설명회를 통해 RDNA 2 아키텍처의 구조가 드러났는데, RDNA2의 비효율적인 하드웨어 레이 트레이싱 설계에 대해 의문이 제기되고 있다. RDNA2에는 CU 하나당 레이 트레이싱을 전담하는 기능성 텍스처 프로세서가 하나씩 들어가 레이 트레이싱 작업을 수행하는데, 텍스처 명령과 레이 명령을 동시에 수행할 수가 없다. 클럭당 1 레이 명령을 내리거나, 4 텍스처 명령을 내릴 수 있다. 텍스처 유닛과 레이 가속이 같은 자원을 공유하고 있기에 레이 트레이싱 성능이 결과적으로 최대값보다 낮게 나올 수 밖에 없다. AMD가 엔비디아의 레이 트레이싱 성능을 따라잡았을지에 대한 전망에 의심을 들게 만드는 부분. 또한 상황에 따라 값이 천차만별로 바뀌는 레이-삼각형 값이라는 애매한 지표를 공개해, 텍스처 프로세서의 수량으로 순수한 레이 연산능력인 기가레이를 산출하지 못해, RDNA2 아키텍처의 정확한 레이 연산능력을 특정 지을 수 없게 됐다.

한편 엑스박스 발표회를 통해 드러난 정보에 따르면 CU당 스칼라 및 벡터 처리량은 RDNA1과 동일한 것으로 나타난다. RDNA1과 같이 컴퓨팅용과 그래픽용 각각 하나씩 듀얼레인 명령어 프로세서를 구성했다. 14CU는 하나의 캐시메모리를 공유해 캐시 구조가 RDNA 1과 똑같다. 하지만 듀얼 컴퓨트 유닛이 로컬 데이터 공유를 가능케 해 짝지어진 컴퓨트 유닛들끼리는 마치 하나의 캐시 메모리를 공유하는것과 같은 만듦새를 취하게 한다. 셰이더 어레이 구성이 10CU에서 14CU가 돼 양치기를 통한 성능 향상이 쉬워졌다.

2020년 9월 10일, 10월 28일(현지시간)에 RDNA 2에 대한 소식이 발표될 예정이다. [[https://twitter.com/AMD/status/1303727083747766274|#]]

2020년 9월 17일, 동 클럭/스펙 당 성능은 불확실하지만 [[Xbox One X]] 대비 [[https://www.theverge.com/2020/9/17/21441174/xbox-series-s-next-gen-gaming-performance-gpu-memory-hardware|25%라고 주장하는 것으로 보아]] 현행 RDNA1과 큰 차이가 없을 가능성이 높다. RDNA2는 GCN4세대 대비 +25%인 셈인데, 문제는 이미 RDNA 1세대부터가 GCN 5세대 대비 +25% 가량을 성사했기 때문. 아이러니하게도 VEGA 아키텍처, 즉 GCN 5세대로 가면서 4세대 폴라리스보다 성능상으로 퇴화(...)를 해버린 희대의 촌극이 일어난 덕분에, 저 내용대로라면 RDNA2는 RDNA1보다는 조금 더 좋아지는 게 맞기는 하다.
}}}

* '''셰이더 엔진의 확장 및 구성 변경'''
 RDNA 계열 아키텍처 기반 GPU의 체급을 결정하는 대단위 블록인 셰이더 엔진이 2개 → 4개로 2배 확장됐다. 셰이더 엔진 하나에 2개씩 구성되는 셰이더 어레이도 4개 → 8개로 2배 확장됐고, WGP도 최대 총 20개 → 40개로 2배 확장됐으며, 128 KB인 L1 캐시 메모리도 최대 총 4개 → 8개로 2배 확장됐다. 단, 각 셰이더 엔진마다 프리미티브 유닛, 래스터라이저, 렌더 백엔드가 각각 2개, 2개, 8개씩 → 1개, 1개, 4개씩으로 절반 감소됐으며, L2 캐시 메모리는 256 KB 슬라이스 16개에 총 4 MB 그대로 유지됐다.

* '''전력 대비 성능이 최대 54% 향상'''
 공정 미세화 없이 전성비가 최대 목표치였던 50%를 넘어 최대 54%로 달성됐다. 54% 안에는 16% 기여도의 클럭 포텐셜, 17% 기여도의 전력 최적화, 21% 기여도의 클럭당 성능 강화가 합산된 값이다. 그런데 다른 슬라이드(PUTTING IT ALL TOGETHER)에서는 클럭당 성능의 그래프가 약 16%에 근접한 길이로 보여져서 어느 쪽이 맞는지는 확실하지 않다.

* '''지오메트리 성능 효율성 개선'''
 프리미티브 유닛이 최대 4개로 이전 세대와 동일하다. 다만, 이전 세대에서는 효율이 낮은 편이었는데, 이번에는 [[https://twitter.com/0x22h/status/1329259816162824194|효율이 개선되어 지오메트리 성능이 최대 80%까지 향상]]됐다. 어떻게 효율이 향상됐는지는 확실하지 않으나, 5세대 GCN인 Vega 아키텍처에서 처음 소개됐던 프리미티브 셰이딩 자체가 지오메트리 프로세서의 일부 기능을 프리미티브 유닛이, 프리미티브 유닛의 일부 기능을 컴퓨트 유닛이 분담하여 비효율성을 개선하는 방식이기에, 컴퓨트 유닛의 개수가 이전 세대보다 2배 증가된 것이 프리미티브 셰이딩의 진가를 발휘하게 된 가장 큰 요인인 듯.

* '''래스터라이제이션 성능 2배 증가'''
 래스터라이저는 최대 4개로 이전 세대와 동일하지만, 래스터라이제이션 성능이 16 픽셀/클럭 사이클 → 32 픽셀/클럭 사이클로 향상됐다. 정황상 래스터라이저와 함께 있던 Scan Converter가 2배로 증설된 듯.

* '''레이 엑셀러레이터 (Ray Accelerator)'''
 경쟁사의 지포스가 RT 코어가 탑재된 것과 같이, 라데온에도 [[레이 트레이싱]] 전용 가속 장치가 컴퓨트 유닛마다 1개씩 탑재됐다. 거시적으로 HOT CHIPS 32에 발표된 XBOX SERIES X의 아키텍처 설명회에서 설명했던 '컴퓨트 유닛 안에 클럭당 4텍스처링 또는 4레이 트레이싱으로 동작'이 그대로 반영되어 있는데, 이는 텍스처 유닛에 사용될 자원과 레이 엑셀러레이터에 사용될 자원이 서로 공유하면서 한정된 구조이기 때문. 따라서, '''1 클럭 사이클 내에서 텍스처링과 레이 트레이싱의 동시 연산이 불가능할 수도 있다.''' 동시 연산할 수 있더라도 둘 다 최대 스펙만큼의 성능을 발휘할 수 없다는 것.
 세부적으로 살펴보면 RT 코어와 마찬가지로 BVH(Bounding Volume Hierarchy) 기능을 수행하는데, 광선의 교차(intersection) 판별 기능이 있어도 광선이 교차하는 박스 순회(traversal) 기능은 없어서 순회 기능을 범용 연산부인 스트림 프로세서로 대신해야 하기 때문에 순회 기능이 많이 요구되는 게임에 불리할 것이라고 예상됐지만, 후술할 라데온과 엔비디아의 특성 차이 대문에 오히려 박스 판별이 많을 수록 더 좋은 성능을 보여준다. 광선 교차 판별 기능 중에서도 박스 판별 성능과 박스 순회 후 삼각형 판별 성능이 경쟁사의 Ampere 아키텍처에 도입된 2세대 RT 코어와 다른데, 클럭당 박스 판별 성능이 2세대 RT 코어보다 2배 빠른 4개인 반면, 클럭당 삼각형 판별 성능은 2세대 RT 코어의 절반으로 튜링 아키텍처에 도입된 1세대 RT 코어와 같은 1개이다.
 물론, 텍스처 유닛과 공유하는 자원의 구조가 나쁘기만 한 것은 아니다. 2010년대 이후로 게임이 텍스처링보다는 셰이딩 비중이 커지는 추세인 점도 있지만, 순회 기능을 전용 하드웨어가 아닌 스트림 프로세서가 수행해주기 때문에 스트림 프로세서에 큰 영향을 주지 않기 위한 목적이 더 크다고 볼 수 있다. CUDA 코어, 텍스처 유닛, RT 코어 모두 L1 데이터 캐시 및 셰어드 메모리 하나에 공유해서 RT 코어가 동작하면 CUDA 코어에 큰 영향을 줄 수 있는 경쟁사와는 확연하게 다른 점.
 그 뿐만 아니라, 전용 하드웨어의 역할이 커지면 트랜지스터도 그만큼 많이 차지할 수밖에 없는데, RDNA 2의 레이 엑셀러레이터는 경쟁사 Turing, Ampere의 RT 코어보다 적은 기능이므로 필요한 트랜지스터가 절약되고, GPU 실리콘 다이의 면적을 줄여서 물량을 더 확보할 수 있는 장점이 있다. 면적 대비 성능으로 효율성을 꾀한 셈. 순회 기능을 스트림 프로세서가 수행해주기 때문에, 전용 하드웨어보다 성능이 떨어질지라도 개발자(프로그래머)가 게임의 특성에 맞도록 유연하게 프로그래밍 할 수 있는 것은 덤.
 하지만, 게임 개발사들이 먼저 나온 경쟁사의 RT 코어 구조에 맞게 개발됐기 때문에, 자원 공유 및 프로그래밍 가능하다는 장점이 무색해지고 결과적인 레이 트레이싱 성능이 경쟁사보다 크게 뒤쳐진 요인으로 꼽히고 있다.

* '''렌더 백엔드 플러스 (RB+)'''
 지금까지의 렌더 백엔드 블록은 4개의 ROP이 포함되어 있었고 스루풋도 4 픽셀/클럭 사이클과 16 Depth Samples/클럭 사이클을 유지했으나, 이번에는 8개의 ROP이 포함되는 구조가 되면서 8 픽셀/클럭 사이클로 2배 향상됐다. 그래서 블록 개수가 16개로 똑같아도 ROP이 128개가 된다. WGP가 최대 2배 확장된만큼 ROP도 2배 확장됐기 때문에 이전 세대 RDNA에서 지녔던 같은 렌더링 성능 대비 연산 성능에 따른 뚜렷한 게이밍 성능 스케일링 특성이 고스란히 적용됐다고 볼 수 있다. 하지만, 블록 1개에 여전히 16 Depth Samples/클럭 사이클이라서 완전한 ROP 8개라고 보기엔 애매하다.

* '''컴퓨트 유닛 내부 스레드 스케줄러와 L0 → L1 [[캐시 메모리]] 방향의 대역폭 조정'''
 컴퓨트 유닛 내부에 스레드 스케줄러인 웨이브 프론트 컨트롤러가 20개 → 16개로 감소됨에 따라, 최대 스레드 개수도 1280스레드 → 1024스레드로 감소됐다. 또한, L0 → L1 캐시 메모리 방향의 대역폭이 64 바이트/클럭 사이클 → 32 바이트/클럭 사이클로 절반이나 축소됐다. 이렇게 조정된 원인은 정확히 알 수 없으나, 캐시 메모리에 사용되는 SRAM의 슬라이스 개수와 SRAM 슬라이스의 비트 채널 개수에 따른 면적 문제이거나, IPC, 성능 효율, 고클럭을 모두 달성하기 위해 어쩔 수 없이 축소했을 것이라는 추측성 의견이 있다. 다행히, 반대 방향인 L0 ← L1 캐시 메모리 대역폭은 128 바이트/클럭 사이클로 유지됐으며, 셰이더 어레이 내부 기준 L1 ↔ L2 캐시 메모리 대역폭도 256 바이트/클럭 사이클 그대로 유지됐다.

* '''인피니티 캐시 메모리 (Infinity Cache Memory)'''
 ||<table align=left><tablebgcolor=#ed1c24><tablebordercolor=#ed1c24> {{{#!wiki style="margin: -5px -10px"
[youtube(G0OeD_rCvKQ)]}}} ||
 ||<color=white> '''Introducing AMD Infinity Cache''' ||
 CPU의 L3 캐시 메모리에 대응되는 메모리 계층이 추가됐다. 발표 전 루머로 알려졌을 때는 아무도 믿지 않았을만큼 레이 엑셀러레이터보다 더 주목 받은 신규 요소로, 5세대 GCN인 Vega 마이크로아키텍처부터 구축된 인피니티 패브릭 인터커넥트에 연동되어 있다. Navi 21 기준으로 64-bit 폭의 8 MB 슬라이스가 16개로 구성되어 총 128 MB가 탑재됐다. 최상위 GPU인 Navi 21조차 GDDR6 SGRAM이 256-bit 버스 폭으로 연결되어 있기 때문에 이에 따른 낮은 메모리 대역폭을 보강하기 위해 탑재됐으며, 이를 통해 인피니티 캐시 적중률은 게임에 따라, 해상도 환경에 따라 다르지만 720p HD 환경에서는 약 80%, 4K UHD 환경에서는 약 60% 정도라고 한다. 평균 레이턴시도 같은 256-bit 버스 폭인 라데온 RX 5700 XT 대비 약 34% 단축됐다.
 L2 ↔ 인피니티 캐시 메모리 대역폭은 64 바이트/클럭 사이클인 슬라이스가 16개로 구성되므로 클럭 사이클당 총 1024 바이트가 되며, 인피니티 패브릭 인터커넥트가 별도의 클럭 도메인으로 동작하는데 기본 클럭은 1400 MHz, 최대 클럭은 1940 MHz이다. 따라서, 유효 메모리 대역폭은 캐시 적중률이 겨우 35%만 돼도 (1.940 GHz × 1024 바이트 × 0.35) + (16 Gbps × 256-bit ÷ 8 × 0.65) = 1028.096 GB/s가 되어 사실상 1 TB/s급 이상을 구현할 수 있다. 참고로 1 TB/s는 16 Gbps인 GDDR6 SGRAM을 512-bit 버스 폭으로 구성했을 때의 메모리 대역폭이다. 나중에 일부 하위 라인들의 인피니티 패브릭 클럭 도메인이 밝혀지고, 공식 홈페이지에 RX 6500 XT의 '유효 메모리 대역폭' (Effective Memory Bandwidth) 항목이 추가되면서 적중률까지 가늠할 수 있게 됐다.
  * RADEON RX 6900 XT, 6800 XT의 유효 메모리 대역폭
   * 인피니티 캐시 메모리 클럭 : 1.94 GHz
   * 인피니티 캐시 메모리 버스 폭 : 8192-bit
   * 인피니티 캐시 메모리 대역폭 : 1986.56 GB/s
   * GDDR6 SGRAM 대역폭 : 512 GB/s
   * HD 기준 (1986.56 × 적중률 0.8) + (512 × 부적중률 0.2) = 1691.648 [GB/s]
   * FHD 기준 (1986.56 × 적중률 0.76) + (512 × 부적중률 0.24) = 1632.6656 [GB/s]
   * QHD 기준 (1986.56 × 적중률 0.74) + (512 × 부적중률 0.26) = 1603.1744 [GB/s]
   * 4K UHD 기준 (1986.56 × 적중률 0.62) + (512 × 부적중률 0.38) = 1426.2272 [GB/s]
  * RADEON RX 6800의 유효 메모리 대역폭
   * 인피니티 캐시 메모리 클럭 : 1.55 GHz
   * 인피니티 캐시 메모리 버스 폭 : 8192-bit
   * 인피니티 캐시 메모리 대역폭 : 1587.2 GB/s
   * GDDR6 SGRAM 대역폭 : 512 GB/s
   * HD 기준 (1587.2 × 적중률 0.8) + (512 × 부적중률 0.2) = 1372.16 [GB/s]
   * FHD 기준 (1587.2 × 적중률 0.76) + (512 × 부적중률 0.24) = 1329.152 [GB/s]
   * QHD 기준 (1587.2 × 적중률 0.74) + (512 × 부적중률 0.26) = 1307.648 [GB/s]
   * 4K UHD 기준 (1587.2 × 적중률 0.62) + (512 × 부적중률 0.38) = 1178.624 [GB/s]
  * RADEON RX 6700 XT의 유효 메모리 대역폭
   * 인피니티 캐시 메모리 클럭 : 1.94 GHz
   * 인피니티 캐시 메모리 버스 폭 : 6144-bit
   * 인피니티 캐시 메모리 대역폭 : 1489.92 GB/s
   * GDDR6 SGRAM 대역폭 : 384 GB/s
   * HD 기준 (1489.92 × 적중률 0.78) + (384 × 부적중률 0.22) = 1246.6176 [GB/s]
   * FHD 기준 (1489.92 × 적중률 0.72) + (384 × 부적중률 0.28) = 1180.2624 [GB/s]
   * QHD 기준 (1489.92 × 적중률 0.69) + (384 × 부적중률 0.31) = 1147.0848 [GB/s]
   * 4K UHD 기준 (1489.92 × 적중률 0.53) + (384 × 부적중률 0.47) = 970.1376 [GB/s]
  * RADEON RX 6600 XT의 유효 메모리 대역폭
   * 인피니티 캐시 메모리 클럭 : 1.8 GHz
   * 인피니티 캐시 메모리 버스 폭 : 4096-bit
   * 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
   * GDDR6 SGRAM 대역폭 : 256 GB/s
   * HD 기준 (921.6 × 적중률 0.55) + (256 × 부적중률 0.45) = 622.08 [GB/s]
   * FHD 기준 (921.6 × 적중률 0.44) + (256 × 부적중률 0.56) = 548.864 [GB/s]
   * QHD 기준 (921.6 × 적중률 0.38) + (256 × 부적중률 0.62) = 508.928 [GB/s]
   * 4K UHD 기준 (921.6 × 적중률 0.27) + (256 × 부적중률 0.73) = 435.712 [GB/s]
  * RADEON RX 6600의 유효 메모리 대역폭
   * 인피니티 캐시 메모리 클럭 : 1.8 GHz
   * 인피니티 캐시 메모리 버스 폭 : 4096-bit
   * 인피니티 캐시 메모리 대역폭 : 921.6 GB/s
   * GDDR6 SGRAM 대역폭 : 224 GB/s
   * HD 기준 (921.6 × 적중률 0.55) + (224 × 부적중률 0.45) = 607.68 [GB/s]
   * FHD 기준 (921.6 × 적중률 0.44) + (224 × 부적중률 0.56) = 530.944 [GB/s]
   * QHD 기준 (921.6 × 적중률 0.38) + (224 × 부적중률 0.62) = 489.088 [GB/s]
   * 4K UHD 기준 (921.6 × 적중률 0.27) + (224 × 부적중률 0.73) = 412.352 [GB/s]
  * RADEON RX 6500 XT의 유효 메모리 대역폭 : 232 GB/s
   * 인피니티 캐시 메모리 클럭 : 1.8 GHz
   * 인피니티 캐시 메모리 버스 폭 : 2048-bit
   * 인피니티 캐시 메모리 대역폭 : 460.8 GB/s
   * GDDR6 SGRAM 대역폭 : 144 GB/s
   * HD 기준 (460.8 × 적중률 0.37) + (144 × 부적중률 0.63) = 261.216 [GB/s]
   * FHD 기준 (460.8 × 적중률 0.28) + (144 × 부적중률 0.72) = 232.704 [GB/s]
   * QHD 기준 (460.8 × 적중률 0.23) + (144 × 부적중률 0.77) = 216.864 [GB/s]
   * 4K UHD 기준 (460.8 × 적중률 0.19) + (144 × 부적중률 0.81) = 204.192 [GB/s]
 Navi 21에 탑재된 128 MB의 인피니티 캐시 메모리는 GPU 전체에서 약 20%의 면적 비중을 차지하고 있는데, 이렇게까지 설계된 것은 GPU에 차지하는 면적 비중을 감안하더라도 유효 대역폭과 소비 전력 두 가지를 모두 잡기 위해 설계됐다고 한다. GPU 공정 미세화를 거쳐도 GPU 내부 GDDR6 SGRAM 컨트롤러와 물리 계층(PHY)이 좀처럼 줄어들지 않아 면적이 [[HBM]] 계열의 컨트롤러와 물리 계층보다 더 크고, 소비 전력도 HBM 계열보다 딱히 우위에 있지 않기 때문에, 전통적인 방식대로 GDDR6 SGRAM을 512-bit 버스 폭으로 무식하게 확장됐다면 전성비 우위를 가지기 어려웠을 것이고, 설령 그렇게 구성해도 GPU 전체의 면적에 대한 이득도 별로 없었을 것이다. 그 반면에 SRAM인 인피니티 캐시 메모리는 아예 없었을 때보다는 GPU 면적이 더 크지만 공정 미세화되면 면적이 감소되므로, 장기적인 관점에서는 같은 GPU 전체 면적 대비 뛰어난 유효 메모리 대역폭을 기대할 수 있다.

* '''Direct3D Feature Level 12_2 (DirectX 12 Ultimate 포함)'''
 DirectX 레이 트레이싱 이외에도 메시 셰이더, 샘플러 피드백, 가변 셰이딩(VRS) 기능도 지원한다. 이를 적극적으로 활용하면 FP32 연산 성능을 이용하여 성능 효율을 높일 수 있으나, 현재까지는 2020년에 공개된 [[언리얼 엔진]] 5의 '나나이트 세계의 루멘' 데모 영상이 이를 활용한 것으로 보이지만 이런 식으로 활용한 게임이 아직 없다.

* '''스마트 엑세스 메모리 (Smart Access Memory)'''
 ||<table align=left><tablebgcolor=#ed1c24><tablebordercolor=#ed1c24> {{{#!wiki style="margin: -5px -10px"
[youtube(Kmp_rW4cl38)]}}} ||
 ||<color=white> '''Introducing AMD Smart Access Memory''' ||
## [[파일:f51f7010059eded555935e1bc1d1698b.png]]
 메모리 레지스터 사이즈를 변경해서 CPU가 VRAM에 더 빠르게 접근하게 해주는 기능으로 과거 바이오스가 그 한계로 그래픽 메모리의 4Gbit(=256MB) 까지만 접근이 가능했으나 해당 기능으로 CPU가 그래픽 카드 메모리를 모두 접근가능해진다. Resizable Base Address Register의 브랜드 네임이기도 하며, 경쟁사도 2021년 2월 하순에 출시된 지포스 RTX 3060부터 [[Resizable BAR]] 기능이 도입되는 계기가 됐다.
 NVIDIA의 [[Resizable BAR]]는 평균 3%의 성능 향상을 보이며 AMD의 Smart Access Memory 또한 크지않은 평균 5%의 성능 향상을 보이는데 이는 지원 게임 한정 이라는 함정 카드가 존재한다. 지원되지 않는 게임이라면 오히려 성능 감소가 되기도 하는 양날의 검인 옵션, 그러나 2020년부터 16비트 CSM 즉 바이오스 지원이 중단되고 64비트 UEFI로 넘어가기 때문에 미래에는 기본지원이 될 예정이기 때문에 최신 게임을 할수록 해당 기능을 활성화 해야한다.
 Adrenalin 21.9.1 드라이버 이후 [[RDNA]] 1의 지원이 추가됐다.

* '''레이지 모드 (Rage Mode)'''
 그래픽 카드의 전력 제한을 완전히 해제하는 것은 아니고 어느 정도 완화하여 오버클럭 포텐셜, 온도, 전력이 허용되는 범위 한해서 더 높은 부스트 클럭으로 끌어 올리는 기능이다. 라이젠 CPU의 [[PBO]]에 대응되는 기능이라고 볼 수 있다. 하지만, PBO처럼 제약 조건들이 걸려서 클럭 향상률이 크지 않은데다 GDDR6 SGRAM 대역폭의 한계로 인한 병목 현상이 심화되어 게이밍 성능에 큰 효과가 없다는 단점이 있다. 결국 실제 벤치마크에서는 평균 1% 내외로 밝혀지면서 실효성이 떨어지는 기능으로 전락된 상태.

2020년 10월 28일에 정식 발표되고 11월 18일에 출시된 2번째 RDNA 마이크로아키텍처. 이전 RDNA와 비교해서 확장된 구조, 전성비 50% 향상, 클럭 증가가 주된 특징으로, 가장 눈에 띄는 추가 기능은 [[레이 트레이싱]] 가속을 지원하는 RA(Ray Accelerator)와 인피니티 캐시 메모리라는 새로운 캐시 메모리 계층이다. 그 외에 기타 추가 기능도 있지만 기본적인 특징은 이전 세대와 동일.

인피니티 캐시 메모리는 ZEN 계열 마이크로아키텍처의 L3 캐시 메모리를 기반으로 설계됐다. AMD의 설명에 따르면 인피니티 캐시는 DRAM 레이턴시를 감소시키며 매우 높은 메모리 대역폭을 제공하고 전력 소모량 감소 효과도 있다. (256-bit GDDR6 SGRAM 단독 사용과 비교했을 때 인피니티 캐시가 결합된 GDDR6 SGRAM 사용은 0.9배의 전력 소모로 2.17배의 대역폭을 제공받는 효과) 하이엔드 라인업 RDNA 2 기반 GPU인 Navi 21에는 128 MB 용량의 인피니티 캐시가 탑재된다.

실리콘 최적화를 통해 동일한 7nm 공정임에도 전성비를 RDNA 1 대비 최소 50% 향상시켰으며, 클럭을 30% 향상시켰다. IPC 향상에 관해선 별다른 언급이 없었으나, 54% 전성비 기여도에서 클럭당 성능이 16~21%로 보여진 점, 앞선 개선점들을 전부 종합하면 지난 세대 Navi 10이 탑재된 RX 5700 XT 대비 RDNA 2 기반의 Navi 21이 탑재된 그래픽카드 성능이 평균 약 2배에 이른다.

또한, 기능적으로는 DirectX 레이 트레이싱, 메쉬 셰이더, DirectStorage API, Variable Rate Shading, 샘플러 피드백을 지원한다. AMD 스마트 액세스 메모리 기술이 공개되면서 라이젠 5000 시리즈 CPU는 RX 6000 시리즈 그래픽 카드의 GPU 메모리에 완전 접근이 가능해졌다. 즉 CPU가 좋은 자원을 끌어다 쓸 수 있도록 해준다는 것. 레이지 모드가 추가되면서 전력 제한을 어느 정도 완화하면서 부스트 클럭을 보증 가능한 범위 내에서 더 높일 수 있게 됐다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

Radeon DNA (문단 편집)

캡챠